년 12월 AI 및 로봇 연구 동향
1. 2021년 말을 장식한 AI 연구의 파노라마
2021년 12월은 인공지능(AI) 및 로봇 공학 분야에서 이론적 깊이와 실용적 적용이 동시에 심화된 중요한 시점이었다. 세계 최고 권위의 신경정보처리시스템학회(NeurIPS) 2021을 중심으로 학계의 최신 이론이 폭넓게 발표되었으며, Meta, DeepMind, Google 등 산업계 연구소들은 장기적인 비전과 당면 과제 해결을 위한 구체적인 성과를 제시했다. 이 시기의 연구들은 ‘일반화(Generalization)’, ‘상호작용(Interaction)’, ’신뢰성(Trustworthiness)’이라는 세 가지 핵심 키워드로 요약될 수 있다. 대규모 모델과 자기지도학습을 통해 데이터 의존성을 낮추고, 고도화된 시뮬레이션 환경에서 가상 에이전트의 복잡한 상호작용을 학습시키며, AI 시스템의 공정성, 안전성, 인과적 추론 능력을 확보하려는 노력이 두드러졌다.1 본 보고서는 이들 연구를 종합적으로 분석하여 당시 기술 지형의 핵심적인 흐름을 조망하고 미래를 전망하는 것을 목표로 한다.
2. NeurIPS 2021: AI 연구의 최전선
NeurIPS 2021은 AI 연구의 현주소를 가장 명확하게 보여주는 장이었다. 특히 강화학습, 컴퓨터 비전, 그리고 신뢰 가능한 AI라는 세 축에서 주목할 만한 진전이 있었다. 다음 표는 본 장에서 심층적으로 분석할 핵심 연구들을 요약한 것이다.
| 연구 제목 (Title) | 핵심 기여 (Key Contribution) | 분야 (Domain) | 관련 스니펫 |
|---|---|---|---|
| Near-Optimal No-Regret Learning in General Games | 일반 합 게임에서 $poly(\log T)$ 후회 경계 달성 | 강화학습 / 게임 이론 | 4 |
| Volume Rendering of Neural Implicit Surfaces | 부호 거리 함수(SDF) 기반 밀도 표현으로 고품질 3D 형상 복원 | 컴퓨터 비전 / 3D 렌더링 | 4 |
| MuZero Unplugged | 온라인 및 오프라인 RL을 통합하는 단일 모델 기반 알고리즘 | 강화학습 | 6 |
| Sequential Causal Imitation Learning with Unobserved Confounders | 잠재적 교란 변수가 있는 순차적 모방 학습의 가능 조건 제시 | 인과관계 추론 / 모방 학습 | 7 |
| Intriguing Properties of Vision Transformers | 가림, 도메인 변화 등에 대한 비전 트랜스포머의 강건성 분석 | 컴퓨터 비전 | 6 |
2.1 강화학습의 새로운 지평: 데이터 효율성과 일반화
강화학습 분야에서는 현실 세계 적용의 가장 큰 장벽인 데이터 효율성과 일반화 성능을 개선하려는 연구가 주를 이루었다. 고정된 데이터셋만으로 정책을 학습하는 오프라인 강화학습(Offline Reinforcement Learning)에 대한 다수의 연구가 발표되었는데, 이는 실제 환경과의 상호작용 비용이 높거나 위험이 따르는 로봇 공학, 헬스케어, 자율주행 등의 분야에서 AI 적용 가능성을 크게 확장하는 중요한 흐름이다.1
이러한 흐름 속에서 DeepMind가 발표한 ’MuZero Unplugged’는 특히 주목할 만한 성과였다. 이 알고리즘은 환경과의 상호작용이 가능한 온라인(Online) RL과 고정된 데이터셋을 사용하는 오프라인 RL을 단일한 모델 기반(Model-based) 프레임워크로 통합했다. 환경의 동역학을 학습하는 내부 모델을 통해, 실제 상호작용 데이터가 풍부할 때와 그렇지 않을 때 모두 효과적으로 학습할 수 있음을 보여주었다. 이는 데이터 가용성에 따라 유연하게 학습할 수 있는 범용적 의사결정 에이전트로의 중요한 진일보를 의미한다.6
단일 에이전트의 학습 효율성 증대와 더불어, 다중 에이전트 시스템의 안정성에 대한 이론적 토대도 크게 강화되었다. Constantinos Daskalakis 등의 “Near-Optimal No-Regret Learning in General Games“는 다중 플레이어 일반 합 게임(multi-player general-sum games)에서 ’Optimistic Hedge’라는 비교적 간단한 알고리즘이 거의 최적의(near-optimal) 후회(regret)를 달성함을 증명했다. 구체적으로, 총 $T$ 라운드의 상호작용 후 각 플레이어가 경험하는 누적 후회가 기존의 다항식 경계($O(T^{1/2})$ 또는 $O(T^{1/4})$)를 지수적으로 개선한 $poly(\log T)$ 경계를 가짐을 보였다.4 후회란 최선의 고정 전략 대비 실제 얻은 보상의 차이를 의미하며, 이 값이 작을수록 에이전트가 최적 전략에 가깝게 학습하고 있음을 뜻한다. 이 연구 결과는 복잡한 상호작용 속에서 각 에이전트가 매우 효율적으로 안정적인 상태(Coarse Correlated Equilibrium)로 수렴할 수 있음을 이론적으로 보장하며, 이는 경제 모델링, 자율주행차 간의 협상 등 다중 에이전트 시스템의 안정성과 효율성을 보장하는 핵심적인 이론적 기반을 마련한 것으로 평가된다.9
이러한 연구 동향들은 강화학습의 패러다임이 현실 세계 적용을 위해 수렴하고 있음을 보여준다. 전통적인 강화학습은 방대한 시행착오 데이터를 요구하여 실제 문제 적용에 명백한 한계가 있었다. 이를 극복하기 위해, 한편에서는 오프라인 RL과 모델 기반 RL을 통해 이미 수집된 데이터를 최대한 활용하거나 환경 모델을 학습하여 ’데이터 효율성’을 극대화하는 연구가 진행되었다. 다른 한편에서는 다중 에이전트 시스템에서 각 개체의 학습이 전체 시스템의 안정성을 해치지 않도록 보장하는 ’상호작용의 안정성’에 대한 이론적 연구가 심화되었다. 이 두 연구 흐름은 상호 보완적이다. 단일 에이전트의 학습 효율이 높아져도 여러 에이전트가 상호작용하는 환경에서는 예측 불가능한 결과로 이어질 수 있기 때문이다. 따라서 데이터 효율성과 상호작용 안정성 연구의 동시 발전은, 비로소 복잡한 실제 문제에 강화학습을 적용하기 위한 견고한 기반을 다지는 과정이라 할 수 있다.
2.2 현실을 재구성하는 컴퓨터 비전: 3D와 생성 모델의 융합
컴퓨터 비전 분야에서는 3차원 공간을 이해하고 생성하는 기술과, 이미지 생성 모델의 제어 가능성을 높이는 연구에서 큰 진전이 있었다. Lior Yariv 등이 발표한 “Volume Rendering of Neural Implicit Surfaces“는 3D 형상 복원 분야에 큰 영향을 미친 연구로, ’VolSDF’라는 새로운 방법론을 제시했다.4 기존의 NeRF(Neural Radiance Fields)는 3D 공간의 각 지점에서의 밀도(density)와 색상(color)을 신경망으로 직접 학습하여 새로운 시점의 이미지를 렌더링했다. 이 방식은 렌더링 품질은 우수했지만, 밀도 함수가 물리적 표면과 직접적인 관련이 없어 추출된 3D 형상에 노이즈가 많고 매끄럽지 못한 단점이 있었다. VolSDF는 이 문제를 해결하기 위해, 표면으로부터의 부호가 있는 거리 함수(Signed Distance Function, SDF)를 기반으로 밀도를 새롭게 정의했다. SDF는 표면을 기준으로 안쪽은 음수, 바깥쪽은 양수 값을 가지는 함수로, 그 자체로 명확한 표면 정보를 내포한다. 이 SDF를 학습하고 이를 변환하여 밀도를 계산함으로써, VolSDF는 훨씬 더 매끄럽고 정확하며 위상적으로 올바른 고품질 3D 형상을 복원할 수 있게 되었다. 이는 물리적 객체의 정밀한 디지털 트윈 생성이나 가상현실 콘텐츠 제작의 품질을 한 단계 끌어올린 핵심 기술로 평가된다.5
이러한 3D 비전의 발전은 표현 방식의 근본적인 진화를 보여준다. 과거 3D 데이터는 복셀, 포인트 클라우드, 메시 등 명시적인(explicit) 방식으로 표현되어 해상도와 메모리, 위상 변화의 어려움 등 본질적인 한계를 가졌다. NeRF는 3D 장면을 신경망 가중치 안에 연속적인 함수로 ‘내재적으로(implicitly)’ 표현하는 패러다임을 열었으나, 이는 형상과 외형이 뒤섞인 비구조적인 표현이었다. VolSDF는 여기에 SDF라는 강력한 기하학적 사전 지식(inductive bias)을 도입함으로써 ’구조적 내재 표현’으로의 도약을 이뤄냈다. 이는 단순히 렌더링 품질 향상을 넘어, 3D 장면을 의미론적으로 이해하고, 물리적 상호작용을 시뮬레이션하며, 객체의 형상을 독립적으로 편집할 수 있는 기반을 마련한 것이다. 이러한 구조화된 표현 방식은 향후 로봇이 환경과 상호작용하는 Embodied AI나 사용자가 가상 세계를 창조하는 메타버스 기술의 필수적인 토대가 된다.
한편, 2D 이미지 인식 분야에서는 비전 트랜스포머(Vision Transformers, ViT)의 내부 작동 방식과 특성에 대한 심층 분석이 활발히 진행되었다. ViT는 이미지를 여러 패치로 나누어 처리하는데, NeurIPS 2021에서는 ViT가 CNN과 달리 이미지 전체 패치 간의 전역적인 관계(image-wide context)에 주목하는 유연성 덕분에, 심각한 가림(occlusion), 도메인 변화, 적대적 섭동(perturbation)에 더 강건한 특성을 보인다는 연구 결과가 발표되었다. 이는 ViT가 단순 분류 성능을 넘어, 예측 불가능한 현실 세계의 시각적 변화에 더 잘 대응할 수 있는 잠재력을 가졌음을 시사한다.6
생성 모델 분야에서도 점수 기반 생성 신경망(Score-based Generative Neural Networks)이나 인스턴스 조건부 GAN(Instance-conditioned GANs) 등 다양한 연구가 발표되었다.1 이는 단순히 사실적인 이미지를 생성하는 것을 넘어, 사용자의 의도에 따라 특정 조건을 만족하는 이미지를 생성하거나, 이미지의 형상과 외형을 분리하여 제어하는 등 보다 정교한 제어 가능성을 확보하는 방향으로 나아가고 있음을 보여준다.
2.3 신뢰 가능한 AI를 향한 이론적 탐구
AI 기술의 사회적 영향력이 커짐에 따라, 그 신뢰성과 안전성을 보장하기 위한 이론적 연구의 중요성 또한 부각되었다. 특히 인과관계 추론(Causal Inference) 분야에서 주목할 만한 연구들이 발표되었다. Elias Bareinboim 연구 그룹은 관찰되지 않은 교란 변수(unobserved confounders)가 존재하는 순차적 의사결정 환경에서 전문가의 행동을 모방하는 학습이 언제 가능한지에 대한 명확한 그래픽 조건을 제시했다.7 또한, 행렬 방정식을 활용하여 기존의 그래프 기반 방법론으로는 식별할 수 없었던 인과 효과를 식별하는 새로운 알고리즘을 개발했다.7 이는 단순한 상관관계 기반의 예측을 넘어, ‘왜’ 그러한 결과가 나타났는지 근본적인 원인을 이해하고, 환경 변화에 강건한 예측을 수행하는 AI 시스템을 구축하는 데 필수적인 이론적 진보다.
이와 더불어 공정성(Fairness), 프라이버시(Privacy), 강건성(Robustness)에 대한 연구도 활발히 이루어졌다. 랭킹 시스템에서 발생할 수 있는 불확실성을 고려하여 공정성을 확보하는 연구 1, 차분 프라이버시(Differential Privacy)를 적용할 때 각 개인의 프라이버시 손실을 정밀하게 추적하는 방법론 13, 그리고 모델의 예측 정확도는 해치지 않으면서 모델의 불확실성 추정(Uncertainty Estimation) 기능만을 선택적으로 무력화하는 새로운 공격 방법론 1 등이 발표되었다. 이러한 연구들은 AI 기술이 사회 전반에 확산됨에 따라 발생할 수 있는 다양한 윤리적, 사회적 문제에 대응하기 위한 기술적 토대를 마련하고 있다.
3. 주요 연구 기관별 핵심 연구 발표
학계의 기초 연구와 더불어, 거대 기술 기업의 연구소들은 막대한 자원과 데이터를 바탕으로 AI 연구의 방향성을 주도한다. 2021년 12월, Meta, DeepMind, Google은 각기 다른 철학과 전략을 바탕으로 한 핵심 연구들을 발표하며 미래 기술 지형을 예고했다.
3.1 Meta AI: 구현된 AI와 사회적 적용
Meta AI는 NeurIPS 2021에서 83편의 논문을 발표하며, 특히 구현된 AI(Embodied AI) 연구에 대한 강력한 의지를 보였다.3 그 중심에는 새로운 시뮬레이션 플랫폼인
Habitat 2.0이 있다. 이는 단순한 3D 환경 렌더링을 넘어, 로봇이 서랍을 열고, 물건을 집는 등 객체와 물리적으로 상호작용할 수 있는 고성능 물리 엔진이 탑재된 시뮬레이션 환경이다.6 ReplicaCAD라는 주석이 달린 3D 데이터셋과 함께 제공되어, 가상 환경에서 학습한 로봇의 정책을 현실 세계로 이전(Sim2Real)하는 연구를 가속화한다.15 이는 Meta가 제시한 메타버스 비전 16을 기술적으로 구현하기 위한 핵심 기반이자, 차세대 AI 에이전트 개발의 필수 인프라에 해당한다.
동시에 Meta는 수십억 사용자를 가진 플랫폼의 당면 과제 해결에도 AI 기술을 적극적으로 활용했다. 대표적인 사례는 유해 콘텐츠 탐지를 위해 개발하고 배포한 ‘Few-Shot Learner (FSL)’ 시스템이다.17 FSL은 소수의 예시(few-shot) 또는 예시가 전혀 없는(zero-shot) 상황에서도 새로운 유형의 유해 콘텐츠를 몇 주 내로 신속하게 탐지하도록 적응할 수 있다. 이는 끊임없이 형태를 바꾸며 진화하는 유해 콘텐츠에 대응하기 위해 수백만 개의 데이터를 수집하고 레이블링해야 했던 기존 방식의 한계를 극복한 중요한 실용적 성과다.17 이와 함께, 정부나 특정 집단이 배후에서 조직적으로 허위 정보를 유포하는 네트워크(Coordinated Inauthentic Behavior)를 탐지하고 제거하는 등 AI를 활용한 플랫폼 보안 강화 노력도 발표했다.19
Meta의 이러한 연구 발표들은 ’공격적인 미래 투자’와 ’방어적인 현재 문제 해결’이라는 이중적인 전략을 명확히 보여준다. 2021년 사명을 변경하며 전면에 내세운 ’메타버스’라는 장기 비전을 기술적으로 뒷받침하는 것이 바로 Embodied AI 연구이며, Habitat 2.0은 이 비전을 실현하기 위한 핵심 인프라 구축에 해당한다. 이는 미래 시장을 선점하기 위한 장기적이고 공격적인 투자다. 반면, FSL과 CIB 탐지 기술은 Facebook, Instagram 등 기존 플랫폼에서 발생하는 유해 콘텐츠, 허위 정보와 같은 심각한 사회적 문제에 대응하여 플랫폼의 지속 가능성을 확보하기 위한 방어적 성격의 기술 개발이다. 이 두 축은 분리된 것이 아니라 상호보완적이다. 가상 세계에서의 상호작용 기술은 현실 세계의 문제를 해결하는 데 기여할 수 있고, 현실 세계의 대규모 데이터 처리 경험은 가상 세계를 더욱 정교하게 구축하는 데 활용될 수 있기 때문이다.
3.2 DeepMind: 과학적 발견을 가속하는 AI
DeepMind는 AlphaFold의 성공 이후, AI를 인류의 지식 확장을 위한 기초 과학의 난제 해결에 적용하는 ‘과학을 위한 AI(AI for Science)’ 방향을 뚜렷이 하고 있다. 2021년 12월에는 수백 년 된 수학 난제인 유체 역학(fluid dynamics) 방정식의 새로운 해(singularities 또는 blow ups)를 발견하는 데 AI를 활용한 연구를 발표했다.20 이 연구는 방대한 데이터 없이 물리 법칙 자체를 신경망이 학습하도록 하는 물리 정보 신경망(Physics-Informed Neural Networks, PINNs)을 활용했다. 그 결과, 인간 수학자들이 발견하지 못했던 새로운 패턴과 해의 존재를 체계적으로 발견해냈다. 이는 AI가 기존 데이터를 분석하는 도구를 넘어, 새로운 과학적 통찰과 발견을 이끄는 ’발견의 엔진’이 될 수 있음을 보여주는 상징적인 사례다.
기술 개발과 함께 DeepMind는 책임감 있는 AI(Responsible AI)에 대한 철학을 지속적으로 강조했다. 미국 국립표준기술연구소(NIST)가 수립 중인 AI 위험 관리 프레임워크(AI Risk Management Framework)에 대한 공식 의견서를 제출하며, 연구 설계 초기 단계부터 잠재적인 윤리적 위험을 평가하고, AI 시스템의 신뢰성을 확보하기 위한 기술적, 사회기술적 연구의 필요성을 역설했다.2 이는 최첨단 기술 개발과 그에 따르는 사회적 책임을 함께 고민하려는 DeepMind의 확고한 연구 기조를 보여준다.
3.3 Google AI: 플랫폼화와 현실 문제 해결
Google AI는 자사의 기술을 더 많은 개발자와 기업이 쉽게 활용할 수 있도록 하는 ‘플랫폼화’ 전략과, AI 기술을 통해 현실 세계의 문제를 직접적으로 해결하려는 노력을 동시에 보여주었다. Vertex AI 플랫폼은 머신러닝 모델의 개발, 배포, 관리를 통합하는 MLOps 환경을 제공함으로써 AI 기술의 민주화를 가속화했다.21 초고속 최근접 이웃 검색을 위한 Matching Engine, 최적의 신경망 구조를 자동으로 탐색하는 Neural Architecture Search (NAS) 등 고급 기능을 서비스 형태로 제공하여 AI 기술의 진입 장벽을 낮추고 있다.21
제품 레벨에서는 AI의 사회적 영향을 고려한 기술 적용이 돋보였다. 대표적인 사례는 Pixel 스마트폰 카메라에 적용된 Real Tone 기술이다.22 이는 기존 카메라 알고리즘이 특정 피부톤을 기준으로 개발되어 어두운 피부톤을 정확하게 표현하지 못했던 데이터 편향 문제를 해결하기 위한 것이다. Google은 다양한 커뮤니티의 사진작가, 감독들과 협력하여 알고리즘을 개선함으로써, 모든 사람의 피부톤을 정확하고 아름답게 표현할 수 있도록 했다. 또한, 12월에는
제품 리뷰 검색 알고리즘을 업데이트하여, 광고성 리뷰가 아닌 실제 제품을 깊이 있게 사용해 본 경험이 담긴 고품질의 진솔한 리뷰가 검색 결과 상위에 노출되도록 조정했다.23 이는 AI 기술을 활용하여 더 신뢰할 수 있는 정보 생태계를 구축하려는 노력의 일환이다.
4. 로봇 공학의 진화: 상호작용과 학습의 심화
2021년 12월 로봇 공학 분야에서는 복잡한 실제 환경과의 상호작용 능력을 근본적으로 향상시키기 위한 연구들이 주목받았다. 특히 도구 사용의 일반화와 여러 부품 간의 정밀한 접촉이 요구되는 조립 작업의 자동화에서 중요한 패러다임 전환이 시도되었다.
4.1 로봇 조작의 새로운 패러다임: ‘Tool-As-Embodiment (TAE)’
“Tool-As-Embodiment (TAE)” 연구는 로봇이 도구를 단순히 외부 객체로 인식하는 것을 넘어, 자신의 ’몸(embodiment)’의 일부 또는 새로운 말단 장치(end-effector)로 간주하여 학습하는 혁신적인 패러다임을 제안했다.25 이 접근법의 핵심은 로봇의 기본 그립퍼를 사용할 때와, 막대기 같은 도구를 쥐고 사용할 때의 상호작용을 동일한 표현 공간(representation space)에서 처리하는 것이다. 이를 통해 단일 정책(a single policy)이 그립퍼 사용과 도구 사용 모두에 재귀적으로 적용될 수 있도록 했다. 기술적으로는 완전 합성곱 신경망(FCN) 구조를 사용하여, 그립퍼나 도구의 형태와 장면의 높이 맵(heightmap)을 입력받아 모든 픽셀 위치에 대한 행동-가치 맵(action-value map)을 출력한다. 이를 통해 로봇은 현재 자신의 ’몸’이 어떤 형태(그립퍼든, 도구든)이든 주어진 상황에서 최적의 행동을 선택할 수 있다. 이 방식은 서로 다른 도구 사용 경험을 공유하여 학습 효율을 크게 높이는 장점이 있다.25
TAE는 로봇 조작 연구에서 근본적인 도약을 의미한다. 기존 연구는 특정 도구, 예를 들어 특정 모양의 그립퍼에 특화된 정책을 학습하는 경우가 많았다. 이는 ‘무엇을(what)’ 사용하는지에 따라 학습이 종속되는 문제로, 새로운 도구를 사용하려면 정책을 처음부터 다시 학습해야 하는 한계가 있었다. TAE는 이 문제를 ’도구’라는 개념 자체를 로봇의 ’몸’의 일부로 추상화함으로써 해결한다. 예를 들어, ’막대기’라는 도구는 ’두 개의 긴 손가락을 가진 새로운 손’으로 재정의된다. 이러한 관점의 전환은 학습의 초점을 ’특정 도구의 사용법’에서 ’주어진 몸(embodiment)을 가지고 환경과 상호작용하는 일반적인 원리(how)’로 이동시킨다. 그 결과, 하드웨어(도구)와 소프트웨어(정책) 사이의 강한 결합(tight coupling)을 끊어내고, 로봇이 주변의 사물을 즉석에서 도구로 활용하여 이전에 경험하지 못한 새로운 문제를 해결하는, 인간과 같은 수준의 유연한 도구 사용 지능으로 나아가는 중요한 기술적, 철학적 전환을 제시한다. 이는 산업 현장에서 로봇이 다양한 부품과 고정 장치(jig)에 유연하게 대응할 수 있는 잠재력을 열어준다.26
4.2 복잡한 조립 작업의 자동화: 다중 로봇과 강화학습
가구 조립과 같이 여러 부품 간의 정밀한 접촉과 복잡한 순서가 요구되는 작업을 자동화하기 위한 연구도 큰 진전을 보였다. ‘RoboAssembly’ 연구는 다중 로봇(multi-robot)을 위한 시뮬레이션 환경과 강화학습 기반 정책 학습 파이프라인을 제안했다.28
이 연구의 핵심 기여 중 하나는 접촉이 풍부한(contact-rich) 시뮬레이션 환경을 개발한 것이다. 가구 조립은 부품 간의 정밀한 결합이 필수적이므로, 사실적인 물리적 상호작용, 특히 정밀한 충돌 감지(collision-checking)와 강체 접촉(rigid-body contact)을 고속으로 시뮬레이션하는 것이 매우 중요하다. 연구팀은 이를 위해 고속 충돌 감지 라이브러리를 통합하여, 강화학습 에이전트가 수많은 시행착오를 통해 복잡한 조립 기술을 효율적으로 학습할 수 있는 환경을 구축했다.28
이 환경에서 연구팀은 PointNet 기반의 특징 추출기와 Double-DQN 알고리즘을 사용하여 다양한 형태의 의자를 조립하는 정책을 학습시켰다. 특히 주목할 점은 학습된 정책의 일반화 성능이다. 훈련 데이터에 포함되지 않았던 새로운 디자인의 의자에 대해서도 높은 조립 성공률(객체 중심 설정에서 74.5%)을 보여, 학습된 정책이 미지의 형태에 대해서도 일반화될 수 있음을 입증했다. 이는 고정된 작업만을 반복하던 기존 산업용 로봇의 한계를 넘어, 다양한 제품을 유연하게 조립할 수 있는 차세대 지능형 조립 로봇의 가능성을 제시한 중요한 연구다.28
5. 종합 분석 및 2022년 전망
2021년 12월에 발표된 연구들은 AI 기술이 ’정적인 데이터의 패턴 인식’을 넘어 ’동적인 세계와의 상호작용’을 학습하는 방향으로 진화하고 있음을 명확히 보여준다. NeurIPS에서 발표된 강화학습과 3D 비전의 이론적 진보, Meta의 Embodied AI 생태계 구축을 위한 Habitat 2.0, 그리고 로봇 공학 분야의 일반화된 조작 및 조립 연구(TAE, RoboAssembly)는 모두 이 거대한 흐름을 구성하는 중요한 조각들이다.
이 시기에는 몇 가지 핵심 기술 동향이 수렴하는 양상을 보였다. 첫째, Habitat 2.0, RoboAssembly 등 현실과 유사한 물리적 상호작용이 가능한 시뮬레이션의 고도화는 복잡한 AI 에이전트 학습의 필수불가결한 요소가 되었다. 둘째, 대규모 레이블링 데이터에 대한 의존도를 줄이고 적은 데이터로 새로운 작업에 빠르게 적응하는 능력, 즉 자기지도학습 및 소수샷 학습의 부상이 AI의 실용성을 결정하는 핵심 요소로 자리 잡았다. 셋째, VolSDF에서 SDF를 활용한 것처럼, 문제 영역의 구조적 특성(inductive bias)을 모델에 명시적으로 주입하여 학습 효율과 일반화 성능을 높이는 구조적 표현과 사전 지식의 활용이 중요해지고 있다.
2021년 12월의 성과들은 2022년 이후 대규모 언어 모델(LLM)과 비전-언어 모델의 폭발적인 발전의 전조로 볼 수 있다. 3D 세계에 대한 구조적 이해(VolSDF), 상호작용 학습을 위한 시뮬레이션(Habitat), 일반화된 조작 능력(TAE) 등의 기술은 향후 LLM의 강력한 추론 능력과 결합될 것이다. 이는 언어적 지시를 이해하고 물리 세계에서 복잡한 작업을 자율적으로 수행하는 진정한 의미의 ‘Embodied AI’ 시대를 여는 기폭제가 될 것으로 전망된다. 이와 함께, AI의 신뢰성과 책임에 대한 DeepMind와 Google의 논의에서 볼 수 있듯이, 기술이 발전할수록 그 사회적 영향력을 고려하는 윤리적, 기술적 과제는 더욱 중요하게 부상할 것이다.
6. 참고 자료
- NeurIPS 2021 Papers, https://neurips.cc/virtual/2021/papers.html
- [Final PDF] DeepMind NIST RMF RFI - Sept 2021, https://www.nist.gov/document/ai-rmf-rfi-comments-deepmind
- Meta AI research at NeurIPS 2021: Embodied agents, unsupervised …, https://ai.meta.com/blog/-meta-ai-research-at-neurips-2021-embodied-agents-unsupervised-speech-recognition-and-more/
- NeurIPS 2021 papers, https://tanelp.github.io/neurips2021/
- Volume Rendering of Neural Implicit Surfaces, https://proceedings.neurips.cc/paper_files/paper/2021/file/25e2a30f44898b9f3e978b1786dcd85c-Paper.pdf
- NeurIPS 2021 Spotlights, https://neurips.cc/virtual/2021/events/Spotlight
- NeurIPS 2021 Conference - OpenReview, https://openreview.net/group?id=NeurIPS.cc/2021/Conference
- Near-Optimal No-Regret Learning in General Games - arXiv, https://arxiv.org/pdf/2108.06924
- Near-Optimal No-Regret Learning in General Games - OpenReview, https://openreview.net/forum?id=cVwc7IHWEWi
- Near-Optimal No-Regret Learning in General Games - OpenReview, https://openreview.net/pdf?id=cVwc7IHWEWi
- Volume Rendering of Neural Implicit Surfaces - Lior Yariv, https://lioryariv.github.io/volsdf/
- [2106.12052] Volume Rendering of Neural Implicit Surfaces - ar5iv - arXiv, https://ar5iv.labs.arxiv.org/html/2106.12052
- NeurIPS 2021 - Apple Machine Learning Research, https://machinelearning.apple.com/updates/apple-at-neurips-2021
- Habitat 2.0: Training Home Assistants to Rearrange their Habitat - ar5iv - arXiv, https://ar5iv.labs.arxiv.org/html/2106.14405
- Habitat 2.0: Training Home Assistants to Rearrange their Habitat, https://proceedings.neurips.cc/paper/2021/file/021bbc7ee20b71134d53e20206bd6feb-Paper.pdf
- Year in review: Our most-read tech stories of 2021 - Tech at Meta, https://tech.facebook.com/artificial-intelligence/2021/12/year-in-review-2021/
- Meta’s New AI System to Help Tackle Harmful Content | Meta …, https://about.fb.com/news/2021/12/metas-new-ai-system-tackles-harmful-content/
- AI at Meta Blog, https://ai.meta.com/blog/?page=23
- Meta’s Adversarial Threat Report, https://about.fb.com/news/2021/12/metas-adversarial-threat-report/
- Discovering new solutions to century-old problems in fluid dynamics - Google DeepMind, https://deepmind.google/discover/blog/discovering-new-solutions-to-century-old-problems-in-fluid-dynamics/
- Google Cloud AI 2021 Highlights | Google Cloud Blog, https://cloud.google.com/blog/products/ai-machine-learning/google-cloud-ai-2021-highlights
- 2021 AI Principles Progress Update - Google AI, https://ai.google/static/documents/ai-principles-2021-progress-update.pdf
- December 2021 Google Algorithm & Search Industry Updates - Impression Digital, https://www.impressiondigital.com/blog/december-2021-google-algorithm-and-search-industry-updates/
- December 2021 Product reviews update and your site | Google Search Central Blog, https://developers.google.com/search/blog/2021/12/product-reviews-update-and-your-site
- Tool as Embodiment for Recursive Manipulation, https://arxiv.org/pdf/2112.00359
- Robotic Applications - Advantage Industrial Automation, https://www.advantageind.com/robotic-applications/
- What is an end effector and or end-of-arm tool (EOAT) - FerRobotics, https://www.ferrobotics.com/en/news/what-is-an-end-effector-and-or-end-of-arm-tool-eoat/
- RoboAssembly: Learning Generalizable Furniture Assembly Policy …, https://arxiv.org/pdf/2112.10143